如何应对新闻行业的算法变革?来自《华尔街日报》的经验 | 前沿
当今世界,越来越多的重要决定是通过算法得出的。记者需要更深入地认识算法,了解其原理及算法对个人和社会的影响。RUC新闻坊编译了尼曼新闻实验室(NiemanLab)2月14日发表的Acing the algorithmic beat, journalism’s next frontier一文。该文展示了《华尔街日报》的编辑记者们对算法变革的思考。
作者
Francesco Marconi
《华尔街日报》研发部门总监
Till Daldrup
《华尔街日报》研究员
Rajiv Pant
《华尔街日报》首席产品和技术官
算法影响了我们生活的方方面面,例如人与人的相互交流、购物行为、我们接收到的各类信息、如何做出投资决定和职业生涯规划等。哈佛大学商学院的研究表明,相比真人提出的建议,人们更倾向于选择按照算法给出的建议行动。
机器也会出错
虽然人们对算法的信任与日俱增,但美国皮尤研究中心(Pew Research Center)发现,美国人开始关注这些帮助人们做出重要决定的电脑程序的公正性和效度。其中,58%的美国人认为算法似乎带有一定程度上的人为偏见。
他们的想法并非空穴来风。虽然算法看上去非常“客观”,有时还能做出比人类更加明智的决定,但它们仍然会出错。若仅仅因为算法涉及数学原理就认为它们是中立的,就大错特错了。毕竟,算法需要依靠人类创造的数据而运作,而人类是会犯错的,并且持有各种偏见。因此,美国数学家Cathy O’Neil说:“算法是嵌入代码中的观点。”
机器偏见可能会带来严重的后果。大型技术公司的招聘算法可能会通过自主学习,使招聘流程更青睐于男性申请者;进行风险评估的警务软件可能会对黑人更有成见;进行内容推荐的算法可能会放大阴谋论。
揭秘黑箱模型
随着越来越多的重要决定由算法做出,新闻机构也更加关注其工作原理及其对个人和社会的影响。
向读者解释算法是有难度的,因为理解算法需要相关知识,并且算法变化很快,而私有公司又经常对算法的运行细节保密。在一些案例中,即使是拥有算法的公司或政府机构,也可能并不完全了解算法的工作机制,因为这些运算系统并不会解释其作出决定的过程。算法运算的高复杂度意味着追溯特定结果的产出过程极具挑战性。这也意味着那些使用算法的人或机构可能在不同程度上对算法存在盲目信任。然而现状是,政府正用算法做重大决定,例如用算法分析航线或桥梁的安全性,这非常让人担忧。
调查算法工作机制的记者们试图更加深入地了解它们。“算法透明报道”(algorithmic transparency reporting)就是用来揭示这些不透明的黑箱模型,尝试追踪从输入到输出之间的神秘步骤。为了进行这种报道,记者正扩充自身技能,并同数据科学家、技术人员展开合作。
当算法出现问题时,会导致歧视、经济损失、隐私泄露等诸多麻烦,这些都是值得记者去调查的。算法浪潮还处在发展初期,但随着各类组织和政府更广泛地使用,算法可能变得越来越重要。
算法的新闻价值
什么样的算法可能会引起新闻界的兴趣?当传统行业应用算法或算法催生新行业时;当算法出现错误或带有偏见时;当技术进步激发出新的算法可能性时;抑或是当算法受到政府监管时。
新的焦点
当算法开始扰乱现有行业或催生新行业时,它们的新闻价值就产生了。举个例子,算法的进步推动了自动驾驶汽车行业在导航、目标检测和其他方面的发展。未来,记者有必要记录这些发展情况,估算其经济和社会影响范围,并评估使用算法可能带来的潜在风险。
正如美国西北大学传播学院教授Nick Diakopoulos在其论文《算法节拍》(The Algorithms Beat)中提到的,算法的运行方式有时会与现行的社会价值观或法律规范产生冲突。例如,隐私就是算法很容易违反的一种规范。美国Vox新闻网站已经报道了个性化算法对接收者身份或数据造成威胁的可能途径。
明显的错误
算法在出错时往往最具新闻价值。当一个大规模的算法做出不该做的事情时,这种失败可能造成非常严重的后果,并引起公众对算法可靠性的怀疑。由于算法的特性,它很少在人的监督下运行,并且通常被认为是客观的,因此报道算法失败成为了必要的新闻挑战。
美国Mental Floss媒体公司曾报道过谷歌翻译的错误,《福布斯》也曾发文指出苹果地图将司机引导到错误的位置,这些都是算法失败的例子。当算法错误对特定人群产生系统性的负面影响,反映对输入数据的不同群体的区别对待时,这些错误就会具有新闻价值。
据路透社报道,亚马逊停用了一款人工智能招聘工具,因其总是更青睐男性招聘者。亚马逊表示,“公司招聘人员从未使用过该工具来评估应聘者”,但并不否认他们参考了这款招聘工具给出的建议。
算法歧视的例子还包括微软和IBM的面部识别技术。据《连线》杂志报道,这两个公司的面部识别算法对非白人的识别精确度较低。微软表示已采取措施改进算法,IBM则表示计划改进服务,从而解决报道中发现的问题。
据《华盛顿邮报》报道,谷歌的在线广告算法显示,男性更容易收到薪水较高的工作广告推送。谷歌解释说,原因可能是广告商规定他们的广告只能向某些用户展示。
据《华尔街日报》报道,谷歌因其自动生成的“精选摘要”而受到批评,这些“精选摘要”是搜索某个问题时会出现的检索结果,能够为特定问题提供答案。然而,在关于奥巴马的相关搜索中,搜索结果不合时宜地突出强调了奥巴马是国会中的穆斯林成员。谷歌的一位发言人说,谷歌的目标不是替用户思考,而是“帮助你快速、轻松地找到相关信息”。
隐蔽的错误
即使完全按照程序运行,算法也可能会造成一些隐蔽的负面影响。这些错误可能使公司在评估自家算法的影响范围时存在局限性,或使政府在使用算法进行管理时出现失误。
YouTube的推荐算法就是一个例子。它的大致目标是增加对用户的吸引力,通过推荐用户感兴趣的视频来产生尽可能多的浏览量。据《卫报》报道,包括一位YouTube前任软件工程师在内的几位研究者发现,YouTube有推荐宣扬阴谋论等极端主义观点的视频的倾向。诚然,这能帮助YouTube达到获得更多点击量的目的,但会辜负大众对一个健康的媒介信息流的期待,甚至会对整个民主观念产生影响。YouTube在1月底的一篇博客文章中说道,公司将减少近乎违规的和“可能伤害和误导用户”的内容的传播。
即使是正常运行的算法,也可能被用户在无意识中错误操作和使用。《哈佛商业评论》报道了黑客们利用虚假数据戏耍算法安全系统的多样方法。当算法充当把关人时,它们很容易受到敌方的攻击,例如那些通过操纵面部识别系统中的图像来尝试偷窃用户ID的人。《华尔街日报》的另外一篇报道讲述了亚马逊为了防止刷单组织和水军改变其网站上商品的排序,而与之斗智斗勇的故事。
研究进展
记者在告知公众算法研究的进展方面也许能发挥重要作用,这些进展或产生新的潜在风险,或为旧问题提供解决方案。例如,关于自适应采样的研究进展有可能成倍地提高算法学习的速度。又例如,研究人员发现了一种利用算法来预警心脏病的新方法。这种类型的报道可以采用“旧瓶装新酒”的方式,以传统的科技与健康报道的形式阐释新技术及它们对于普通读者的潜在影响。
公共政策
据Tech Republic科技网站称,无论是GDPR(编者注:General Data Protection Regulation,《通用数据保护条例》,是欧盟法律中对所有欧盟个人关于数据保护和隐私的规范)对算法问责制的要求,还是基于政府是否应当规范算法基础的讨论,都使得算法技术的政治性回应变得越来越具有新闻价值。记者在此间的角色是,通过评估现有规章的效力,将提议的政策置入整个政策体系中进行考量。算法相关诉讼越来越多,对这类故事的报道需要集中挖掘算法在计算机程序诞生之前就已经出现的传统法律框架下的新阐释。
叩问算法
有许多因素可以帮助确定算法的性质和影响,以下几点可以帮助记者们进行调查研究:
种类:这个算法是做什么的(例如是用于过滤,预测,排名,还是计算)?
目标:这个算法是用来优化什么的(例如增加人们在该页面停留的时间)?
数据基础:这个算法是基于什么数据的,该数据是否存在偏见?
透明度:用户是否清楚地知道该算法如何做决定?
可解释性:算法的结果是合常理、可解释吗?
人工监管:是否可以通过人工监管使之更快作出决策或产生改进?
已检测到的错误:算法是否存在错误报告的实例?例如阳性判断错误(将无害视频标记为有害)或阴性判断错误(未能标记出有害的视频)?
公正性:该算法是否使某群体处于有利或不利地位?
隐私:服务操作使用的数据是否被共享或保存到其他用户或第三方?
稳健性:该服务应对攻击时的稳健性是否经过检验?
探索算法
随着计算新闻和调查信息源的成熟,探索公开算法的内部工作机理或者未解决的算法漏洞成为可能,编辑部的记者们从外部评估算法的过程主要包括:
数据抓取
使用合法的计算机程序可以从网页上抓取价格和浏览量等信息,进而被用于反向生成算法数据。但需要注意的是抓取数据的过程也许会违反网站所有者的服务提供条款,同时也可能存在其他法律问题,如有人认为数据抓取是一种违反《计算机欺诈和滥用法案》的黑客行为。
数据众包
记者可以从公众那里搜集数据,如利用社交媒体获取算法漏洞。但网站所有者同样可以把这样的搜集行为限制在平台内部,如Facebook正在限制针对其政治广告的数据采集权限,并在近期关闭了部分由非营利性新闻组织ProPublica创建的被称为“Facebook政治广告收集”的浏览器扩展。利用这些扩展,公民可以收集并分享他们在Facebook上看到的广告数据。哥伦比亚大学奈特第一修正案研究所(Knight First Amendment Institute)于2018年8月致信Facebook,呼吁修正其平台的相关条款和服务协议以让记者能够自动采集公共信息,并为研究项目创建临时研究账户。
自动程序
自动程序可以帮助测评算法在不同使用形式下是如何运行的,如从不同的地方登录来评测地理定位算法。但正如数据抓取所面临的情境一样,使用自动程序可能同样面临法律问题,特别是那些涉及误导或欺骗性策略的使用。
技术变化,新闻先行
当权衡是否要公开反映算法内部工作机理的新闻报道时,记者应当考虑报道公开后对于部署设计该算法的组织机构及使用甚至依赖该算法的用户的影响。公开特定算法的工作机理是否有助于读者在未来有效地利用算法并规避其负面影响?一旦公众了解了计算机程序的输入数据详情和判断标准,他们是否会为了一己私利而操纵算法?在探索算法的过程中,追问以下问题是有益的:有关特定算法的报道是如何助长算法操纵的?谁会从这样的操纵中获益?
随着算法在社会越来越多的领域的应用,对新闻业监察与关注算法系统的需要持续增长,考虑到核查算法本身的复杂性,提升媒介素养、做出富有洞察力的深度新闻报道,并以此保持人工智能系统的可探索解释性及公众对其影响的觉知就变得非常重要。
点击查看相关文章:
“算法”遍布你的生活,调查“算法”已成为新闻人的新技能 | 前沿
本期编辑:段钇男、刘畅、刘长宇、葛书润
(点击文末“阅读原文”查看英文原文)
往期回顾
北京老漂族:随迁老人的异乡困境 | 数据新闻作品系列
ASME年度最佳杂志封面奖揭晓,一起体验设计之美|前沿
特别策划
技术前沿
报道规范
趣闻杂谈